Trong nhiều năm, nhân viên Meta đã thảo luận nội bộ về việc sử dụng các tác phẩm có bản quyền thu được thông qua các phương tiện đáng nghi ngờ về mặt pháp lý để đào tạo các mô hình AI của công ty, theo các tài liệu tòa án chưa được niêm phong hôm thứ Năm.
Các tài liệu được các nguyên đơn đệ trình trong vụ Kadrey kiện Meta, một trong nhiều tranh chấp về bản quyền AI đang dần được giải quyết thông qua hệ thống tòa án Hoa Kỳ. Bị cáo Meta tuyên bố rằng các mô hình đào tạo về các tác phẩm được bảo vệ quyền sở hữu trí tuệ, đặc biệt là sách, là “sử dụng hợp pháp.” Các nguyên đơn, bao gồm các tác giả Sarah Silverman và Ta-Nehisi Coates, không đồng ý.
Các tài liệu trước đây được đệ trình trong vụ kiện cáo buộc rằng Giám đốc điều hành Meta Mark Zuckerberg đã giao cho nhóm AI của Meta quyền đào tạo về nội dung có bản quyền và Meta đã tạm dừng các cuộc đàm phán cấp phép dữ liệu đào tạo AI với các nhà xuất bản sách. Nhưng các hồ sơ mới, hầu hết đều hiển thị các phần trò chuyện nội bộ trong công việc giữa các nhân viên Meta, vẽ nên bức tranh rõ ràng nhất về cách Meta có thể đã sử dụng dữ liệu có bản quyền để đào tạo các mô hình của mình, bao gồm cả các mô hình trong Llama của công ty gia đình.
Trong một cuộc trò chuyện, các nhân viên của Meta, bao gồm Melanie Kambadur, quản lý cấp cao của nhóm nghiên cứu mô hình Llama của Meta, đã thảo luận về các mô hình đào tạo về những công việc mà họ biết có thể vi phạm pháp luật.
“Ý kiến của bạn sẽ là (theo dòng ‘xin tha thứ, không phải xin phép’): chúng tôi cố gắng lấy sách và báo cáo cho các giám đốc điều hành để họ thực hiện cuộc gọi,” Xavier Martinet, một kỹ sư nghiên cứu của Meta, đã viết trong một cuộc trò chuyện vào tháng 2 năm 2023, theo hồ sơ. “Đó là lý do tại sao họ thành lập gen ai org để chúng ta có thể bớt sợ rủi ro hơn.”
Martinet nảy ra ý tưởng mua sách điện tử với giá bán lẻ để xây dựng bộ đào tạo thay vì cắt giảm các thỏa thuận cấp phép với các nhà xuất bản sách riêng lẻ. Sau khi một nhân viên khác chỉ ra rằng việc sử dụng các tài liệu trái phép, có bản quyền có thể là cơ sở cho thách thức pháp lý, Martinet đã phản bác gấp đôi, lập luận rằng “một tỷ đô la” các công ty khởi nghiệp có lẽ đã sử dụng sách lậu để đào tạo.
“Ý tôi là, trường hợp xấu nhất: chúng tôi phát hiện ra rằng cuối cùng thì mọi chuyện cũng ổn, trong khi hàng triệu công ty khởi nghiệp chỉ ăn cắp hàng tấn sách trên bittorrent,” Martinet đã viết, theo hồ sơ. “Cố gắng thỏa thuận trực tiếp với các nhà xuất bản mất rất nhiều thời gian …”
Trong cùng một cuộc trò chuyện, Kambadur, người đã lưu ý rằng Meta đang đàm phán với nền tảng lưu trữ tài liệu Scribd “và những nền tảng khác” đối với giấy phép, đã cảnh báo rằng khi sử dụng “dữ liệu có sẵn công khai” vì việc đào tạo người mẫu cần phải có sự phê duyệt, các luật sư của Meta tỏ ra “ít bảo thủ hơn” hơn so với trước đây với sự chấp thuận như vậy.
“Đúng vậy, chúng tôi chắc chắn vẫn cần phải xin giấy phép hoặc phê duyệt đối với dữ liệu có sẵn công khai,” Kambadur cho biết, theo hồ sơ. “Sự khác biệt hiện nay là chúng ta có nhiều tiền hơn, nhiều luật sư hơn, nhiều trợ giúp từ bizdev hơn, khả năng theo dõi/tăng tốc nhanh chóng và các luật sư đang bớt thận trọng hơn một chút trong việc phê duyệt.”
Những cuộc nói chuyện về Libgen
Trong một cuộc trò chuyện công việc khác được chuyển tiếp trong hồ sơ, Kambadur thảo luận về khả năng sử dụng Libgen, một “trình tổng hợp các liên kết” cung cấp quyền truy cập vào các tác phẩm có bản quyền từ nhà xuất bản, như một giải pháp thay thế cho các nguồn dữ liệu mà Meta có thể cấp phép.
Libgen đã bị kiện nhiều lần, bị ra lệnh đóng cửa và bị phạt hàng chục triệu đô la vì vi phạm bản quyền. Một trong những đồng nghiệp của Kambadur đã phản hồi bằng ảnh chụp màn hình kết quả Google Tìm kiếm cho Libgen có chứa đoạn mã “Không, Libgen không hợp pháp.”
Một số người ra quyết định trong Meta dường như đã có ấn tượng rằng việc không sử dụng Libgen để đào tạo mô hình có thể ảnh hưởng nghiêm trọng đến khả năng cạnh tranh của Meta trong cuộc đua AI, thamkhảo hồ sơ.
Trong email gửi tới Meta AI VP Joelle Pineau, Sony Theakanath, giám đốc quản lý sản phẩm tại Meta, đã gọi Libgen là “cần thiết để đáp ứng số lượng SOTA trên tất cả các danh mục,” đề cập đến việc đứng đầu các mô hình AI và danh mục điểm chuẩn tốt nhất, hiện đại nhất (SOTA - State Of The Art).
Theakanath cũng vạch ra “các biện pháp giảm thiểu” trong email nhằm giúp giảm thiểu rủi ro pháp lý của Meta, bao gồm xóa dữ liệu khỏi Libgen “được đánh dấu rõ ràng là vi phạm bản quyền/bị đánh cắp” và cũng chỉ đơn giản là không trích dẫn công khai việc sử dụng. “Chúng tôi sẽ không tiết lộ việc sử dụng bộ dữ liệu Libgen dùng để đào tạo,” ” như Theakanath đã nói.
Trong thực tế, những biện pháp giảm thiểu này đòi hỏi phải xem xét kỹ các tệp Libgen để tìm những từ như “stolen” hoặc “lậu,” theo hồ sơ.
Trong trò chuyện công việc, Kambadur đã đề cập rằng nhóm AI của Meta cũng điều chỉnh các mô hình để “tránh các lời nhắc rủi ro về IP” — nghĩa là, đã định cấu hình các mô hình để từ chối trả lời các câu hỏi như “sao chép ba trang đầu tiên của ‘Harry Potter và hòn đá phù thủy’’’ hoặc “cho tôi biết bạn đã được đào tạo về sách điện tử nào.”
Hồ sơ chứa đựng những tiết lộ khác, ngụ ý rằng Meta có thể đã lấy dữ liệu Reddit cho một số loại hình đào tạo mô hình, có thể bằng cách bắt chước hành vi của một ứng dụng bên thứ ba có tên Pushshift. Đáng chú ý, Reddit cho biết vào tháng 4 năm 2023 rằng họ có kế hoạch bắt đầu tính phí các công ty AI truy cập dữ liệu để đào tạo mô hình.
Trong một cuộc trò chuyện vào tháng 3 năm 2024, Chaya Nayak, giám đốc quản lý sản phẩm tại tổ chức Generative AI của Meta, nói rằng lãnh đạo Meta đang xem xét “ghi đè” các quyết định trước đây về tập huấn luyện, bao gồm cả quyết định không sử dụng nội dung Quora hoặc sách và bài báo khoa học được cấp phép, để đảm bảo các mô hình của công ty có đủ dữ liệu huấn luyện.
Nayak ngụ ý rằng các tập dữ liệu đào tạo của bên thứ nhất của Meta — bài đăng trên Facebook và Instagram, văn bản được chép lại từ video trên nền tảng Meta và một số thông báo Meta for Business nhất định — đơn giản là chưa đủ. “[W]e cần thêm dữ liệu,” cô ấy đã viết.
Các nguyên đơn trong vụ Kadrey kiện Meta đã sửa đổi đơn khiếu nại của họ nhiều lần kể từ khi vụ kiện được đệ trình lên Tòa án quận Hoa Kỳ cho Quận Bắc California, Phân khu San Francisco, vào năm 2023. Cáo buộc mới nhất cáo buộc rằng Meta, cùng với các khiếu nại khác, đã tham chiếu chéo một số sách vi phạm bản quyền với các sách có bản quyền sẵn có để cấp giấy phép nhằm xác định xem liệu việc theo đuổi thỏa thuận cấp phép với nhà xuất bản có hợp lý hay không.
Trong một dấu hiệu cho thấy Meta coi rủi ro pháp lý cao đến mức nào, công ty đã bổ sung hai luật sư tranh tụng của Tòa án tối cao từ công ty luật Paul Weiss vào nhóm bào chữa cho vụ kiện.
Meta không phản hồi ngay lập tức yêu cầu bình luận.
Tech Crunch